Hadoop Installation এবং Configuration

Big Data and Analytics - হাদুপ (Hadoop)
476

Hadoop ইন্সটলেশন এবং কনফিগারেশন হল Hadoop ক্লাস্টার সেটআপ করার প্রাথমিক পদক্ষেপ, যা ডিস্ট্রিবিউটেড ডেটা প্রসেসিং এবং স্টোরেজ সক্ষম করার জন্য প্রয়োজন। এখানে, আমরা হাদুপ ইন্সটলেশন এবং কনফিগারেশন প্রক্রিয়া সম্পর্কে বিস্তারিত আলোচনা করব।


Hadoop Installation

Hadoop ইনস্টল করতে হলে কিছু প্রাথমিক শর্ত পূরণ করতে হবে, যেমন Java ইনস্টল করা এবং সিস্টেমের নির্দিষ্ট কনফিগারেশন তৈরি করা। নীচে দেওয়া হলো হাদুপ ইনস্টল করার জন্য প্রয়োজনীয় স্টেপগুলি।

১. প্রাথমিক শর্তাবলী পূরণ

  • Java: Hadoop চলানোর জন্য Java 8 বা তার পরবর্তী সংস্করণ ইনস্টল থাকতে হবে। আপনি নিম্নলিখিত কমান্ড ব্যবহার করে Java ইনস্টল করতে পারেন:

    sudo apt update
    sudo apt install openjdk-8-jdk
    
  • SSH (Secure Shell): Hadoop নোডগুলোতে একে অপরের সাথে যোগাযোগ করতে SSH প্রোটোকল ব্যবহার করে। তাই SSH কনফিগার এবং ক্লাস্টারের সকল নোডে পাবলিক কী-সেটআপ প্রয়োজন।

    ssh-keygen -t rsa -P ""
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    

২. Hadoop সফটওয়্যার ডাউনলোড করা

Hadoop এর সর্বশেষ ভার্সন Apache Hadoop ওয়েবসাইট থেকে ডাউনলোড করা যেতে পারে। উদাহরণস্বরূপ, আপনি Hadoop 3.x ভার্সন ডাউনলোড করতে পারেন।

  • Hadoop ডাউনলোড করার জন্য নিচের কমান্ড ব্যবহার করুন:

    wget https://archive.apache.org/dist/hadoop/core/hadoop-3.x.x/hadoop-3.x.x.tar.gz
    tar -xzvf hadoop-3.x.x.tar.gz
    
  • ডাউনলোড শেষে, হাদুপ ফোল্ডারটি কোথাও একটি উপযুক্ত লোকেশনে সরিয়ে দিন, যেমন /usr/local/hadoop

৩. পরিবেশ ভেরিয়েবল সেটআপ

Hadoop ইনস্টলেশন করার পর, পরিবেশ ভেরিয়েবল (environment variables) কনফিগার করতে হবে যাতে Hadoop সঠিকভাবে কাজ করতে পারে। আপনি .bashrc ফাইলে Hadoop এর পাথ যোগ করতে পারেন:

nano ~/.bashrc

এরপর ফাইলের শেষে নিচের লাইনগুলো যোগ করুন:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

এটি পরিবেশ ভেরিয়েবল সেটআপ করবে এবং পরে source ~/.bashrc কমান্ড দিয়ে পরিবর্তনগুলো কার্যকরী করতে হবে।


Hadoop Configuration

Hadoop ইনস্টল করার পর কিছু কনফিগারেশন ফাইলকে সঠিকভাবে সেটআপ করতে হয়, যাতে Hadoop সঠিকভাবে কাজ করতে পারে। নীচে কয়েকটি গুরুত্বপূর্ণ কনফিগারেশন ফাইল এবং তাদের সেটিংস সম্পর্কে আলোচনা করা হলো।

১. core-site.xml

এটি Hadoop এর কোর কনফিগারেশন ফাইল, যেখানে HDFS এবং YARN সম্পর্কিত প্রাথমিক কনফিগারেশন সেট করা হয়।

  • core-site.xml ফাইলটি /usr/local/hadoop/etc/hadoop/ ডিরেক্টরিতে পাওয়া যাবে। এই ফাইলে নীচের কনফিগারেশনটি যোগ করুন:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

এখানে, fs.defaultFS নির্দেশ করে যে HDFS-এর জন্য প্রধান নাম নোডের অ্যাড্রেস কেমন হবে। সাধারণত এটি hdfs://localhost:9000 রাখা হয়, যদি আপনি একটি single-node ক্লাস্টার সেটআপ করেন।

২. hdfs-site.xml

এই ফাইলটি HDFS সম্পর্কিত কনফিগারেশন সংরক্ষণ করে। এটি নিশ্চিত করে কিভাবে ডেটা ফাইল সিস্টেমে সংরক্ষণ হবে এবং ব্লক সাইজ এবং রিপ্লিকেশন ফ্যাক্টর কেমন হবে।

  • hdfs-site.xml ফাইলে নীচের কনফিগারেশনটি যোগ করুন:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/usr/local/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/usr/local/hadoop/hdfs/data</value>
    </property>
</configuration>

এখানে, dfs.replication হল ব্লক রিপ্লিকেশনের সংখ্যা এবং dfs.name.dir এবং dfs.data.dir হল নাম নোড এবং ডেটা নোডের জন্য ডিরেক্টরি পাথ।

৩. mapred-site.xml

MapReduce সম্পর্কিত কনফিগারেশন এই ফাইলে রাখা হয়। যদি এই ফাইলটি না থাকে, তবে mapred-site.xml.template ফাইলটি কপি করে তৈরি করতে হবে।

cp mapred-site.xml.template mapred-site.xml

এরপর mapred-site.xml ফাইলে নিচের কনফিগারেশন যোগ করুন:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

এখানে mapreduce.framework.name কনফিগারেশনটি YARN ফ্রেমওয়ার্কে MapReduce কাজ চলানোর জন্য সেট করা হয়।

৪. yarn-site.xml

YARN সম্পর্কিত কনফিগারেশন এই ফাইলে রাখা হয়। এটি ResourceManager এবং NodeManager এর কনফিগারেশন সংরক্ষণ করে।

  • yarn-site.xml ফাইলে নিচের কনফিগারেশন যোগ করুন:
<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>localhost:8032</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

এখানে, yarn.resourcemanager.address সেট করে ResourceManager এর ঠিকানা।


Hadoop ফরম্যাট এবং চালানো

Hadoop কনফিগারেশনের পর, HDFS ফরম্যাট এবং Hadoop চালানোর জন্য নিচের কমান্ডগুলো ব্যবহার করা হয়:

১. HDFS ফরম্যাট করা:

hdfs namenode -format

২. Hadoop ক্লাস্টার শুরু করা:

start-dfs.sh
start-yarn.sh

৩. Hadoop ক্লাস্টার বন্ধ করা:

stop-dfs.sh
stop-yarn.sh

সারাংশ

Hadoop ইনস্টলেশন এবং কনফিগারেশন প্রক্রিয়া বেশ কিছু গুরুত্বপূর্ণ পদক্ষেপের সমন্বয়ে গঠিত। এর মধ্যে Java ইনস্টল করা, Hadoop সফটওয়্যার ডাউনলোড করা, এবং বিভিন্ন কনফিগারেশন ফাইল যেমন core-site.xml, hdfs-site.xml, mapred-site.xml এবং yarn-site.xml সঠিকভাবে কনফিগার করা অন্তর্ভুক্ত। একবার এই কনফিগারেশন সম্পন্ন হলে, Hadoop ক্লাস্টার চালু করা এবং ডেটা প্রসেসিং শুরু করা সম্ভব।

Content added By

Hadoop ইনস্টলেশন (Single-node এবং Multi-node Cluster)

350

Hadoop ইনস্টলেশন প্রক্রিয়া বেশ কিছু ধাপে বিভক্ত, যেখানে আমরা দুটি প্রধান মডেল নিয়ে আলোচনা করবো: Single-node Cluster এবং Multi-node Cluster। Single-node cluster-এ সমস্ত কম্পোনেন্ট একটি একক মেশিনে রান করবে, আর Multi-node cluster-এ Hadoop এর বিভিন্ন কম্পোনেন্ট বিভিন্ন মেশিনে বিভক্ত থাকবে।


Single-node Cluster ইনস্টলেশন

Single-node cluster হ'ল এমন একটি পরিবেশ যেখানে Hadoop সমস্ত কম্পোনেন্ট একটি একক মেশিনে রান করে। এটি সাধারণত ডেভেলপমেন্ট, টেস্টিং এবং শিখতে ব্যবহৃত হয়।

1. Java ইনস্টলেশন

Hadoop Java প্রোগ্রামিং ভাষায় লেখা হয়েছে, তাই এটি কাজ করার জন্য Java ইনস্টল করা আবশ্যক।

  • Java ইনস্টল করতে নিচের কমান্ডটি ব্যবহার করুন:

    sudo apt-get install openjdk-8-jdk
    
  • Java ইনস্টলেশনের পর, জাভা সংস্করণ চেক করতে:

    java -version
    

2. Hadoop ডাউনলোড এবং ইনস্টলেশন

  • Hadoop এর সর্বশেষ ভার্সন ডাউনলোড করতে Apache Hadoop Download থেকে ZIP ফাইলটি ডাউনলোড করুন।
  • ZIP ফাইলটি আনজিপ করুন এবং আপনার পছন্দসই ডিরেক্টরিতে এটি রিনেম এবং স্থানান্তর করুন:

    tar -xzvf hadoop-x.y.z.tar.gz
    mv hadoop-x.y.z /usr/local/hadoop
    

3. Hadoop কনফিগারেশন

  • Hadoop এর কনফিগারেশন ফাইলগুলো সাধারণত etc/hadoop/ ফোল্ডারে থাকে। কনফিগারেশন সেট করতে নিচের ফাইলগুলোতে পরিবর্তন করতে হবে:
    • core-site.xml:
      এই ফাইলে Hadoop এর ডিফল্ট ফাইল সিস্টেম সেট করুন।

      <configuration>
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://localhost:9000</value>
        </property>
      </configuration>
      
    • hdfs-site.xml:
      HDFS এর ডিরেক্টরি এবং ডেটা স্টোরেজ কনফিগার করুন।

      <configuration>
        <property>
          <name>dfs.replication</name>
          <value>1</value>
        </property>
        <property>
          <name>dfs.name.dir</name>
          <value>/usr/local/hadoop/hdfs/namenode</value>
        </property>
        <property>
          <name>dfs.data.dir</name>
          <value>/usr/local/hadoop/hdfs/datanode</value>
        </property>
      </configuration>
      
    • mapred-site.xml:
      MapReduce কনফিগারেশন সেট করতে।

      <configuration>
        <property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
        </property>
      </configuration>
      
    • yarn-site.xml:
      YARN কনফিগারেশন সেট করতে।

      <configuration>
        <property>
          <name>yarn.resourcemanager.address</name>
          <value>localhost:8032</value>
        </property>
        <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
        </property>
      </configuration>
      

4. Hadoop ফরম্যাট এবং শুরু করা

  • হাদুপ ফরম্যাট করতে:

    hdfs namenode -format
    
  • Hadoop এর সিস্টেম চালু করতে:

    start-dfs.sh
    start-yarn.sh
    
  • সকল সার্ভিস স্ট্যাটাস চেক করতে:

    jps
    

এখন আপনার Single-node Hadoop ক্লাস্টার প্রস্তুত।


Multi-node Cluster ইনস্টলেশন

Multi-node cluster হ'ল একটি বৃহত্তর পরিবেশ যেখানে Hadoop এর কম্পোনেন্ট একাধিক মেশিনে বিভক্ত থাকে। এটি সাধারণত প্রোডাকশন পরিবেশে ব্যবহৃত হয় এবং উচ্চ স্কেলড ডেটা প্রসেসিং নিশ্চিত করে।

1. প্রস্তুতি

  • সব মেশিনে একই Hadoop ভার্সন ইনস্টল করতে হবে।
  • সমস্ত মেশিনে SSH কনফিগার করতে হবে, যাতে এক মেশিন থেকে অন্য মেশিনে লগিন করা যায়।

2. Hadoop ইনস্টলেশন এবং কনফিগারেশন

প্রথমে প্রতিটি মেশিনে Hadoop ইনস্টল করুন এবং তারপর নীচের কনফিগারেশন ফাইলগুলো সেট করুন।

  • core-site.xml:
    ক্লাস্টারের NameNode এর অবস্থান উল্লেখ করুন।

    <configuration>
      <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode_host:9000</value>
      </property>
    </configuration>
    
  • hdfs-site.xml:
    সকল মেশিনে HDFS ডিরেক্টরি এবং ডেটা স্টোরেজ সেট করুন।

    <configuration>
      <property>
        <name>dfs.replication</name>
        <value>3</value>
      </property>
      <property>
        <name>dfs.name.dir</name>
        <value>/hadoop/hdfs/namenode</value>
      </property>
      <property>
        <name>dfs.data.dir</name>
        <value>/hadoop/hdfs/datanode</value>
      </property>
    </configuration>
    
  • slaves ফাইল:
    সমস্ত worker node এর নাম উল্লেখ করতে হবে।

    slave1
    slave2
    slave3
    

3. Hadoop কনফিগারেশন শুরু করা

  • প্রতিটি নোডে start-dfs.sh এবং start-yarn.sh স্ক্রিপ্ট রান করুন।

    start-dfs.sh
    start-yarn.sh
    

4. Multi-node Cluster চালু করা

সব নোডে Hadoop চালু হওয়ার পরে, আপনি jps কমান্ড ব্যবহার করে প্রতিটি নোডের চলমান প্রক্রিয়াগুলি পরীক্ষা করতে পারবেন।


সারাংশ

Single-node এবং Multi-node Cluster ইনস্টলেশন পদ্ধতিতে, Hadoop এর ব্যবহারকারীরা বিভিন্ন পরিবেশে ডেটা প্রক্রিয়াকরণ কার্যক্রম পরিচালনা করতে পারেন। Single-node ক্লাস্টার ডেভেলপমেন্ট এবং টেস্টিংয়ের জন্য উপযুক্ত, যেখানে Multi-node ক্লাস্টার বৃহত্তর প্রোডাকশন স্কেল প্রয়োগের জন্য ব্যবহৃত হয়। Hadoop এর কনফিগারেশন, ডিস্ট্রিবিউটেড স্টোরেজ এবং প্রসেসিংয়ের জন্য সঠিক সেটআপ নিশ্চিত করা প্রয়োজন।

Content added By

Hadoop Configuration Files (core-site.xml, hdfs-site.xml, yarn-site.xml)

285

Hadoop সিস্টেমের কার্যকরী পরিচালনার জন্য বিভিন্ন কনফিগারেশন ফাইল ব্যবহার করা হয়। এই ফাইলগুলো সিস্টেমের বিভিন্ন উপাদান এবং সেবার আচরণ নির্ধারণ করে। Hadoop এর প্রধান কনফিগারেশন ফাইলগুলির মধ্যে core-site.xml, hdfs-site.xml, এবং yarn-site.xml বিশেষভাবে গুরুত্বপূর্ণ। প্রতিটি ফাইলের নিজস্ব কনফিগারেশন সেটিংস থাকে, যা সিস্টেমের কাজের পরিবেশ নির্ধারণ করে। এই ফাইলগুলির সঠিক কনফিগারেশন Hadoop ক্লাস্টারের কার্যকারিতা এবং পারফরম্যান্সের জন্য অত্যন্ত গুরুত্বপূর্ণ।


core-site.xml

core-site.xml ফাইলটি Hadoop এর সাধারণ কনফিগারেশন ফাইল হিসেবে পরিচিত। এটি Hadoop এর মূল সিস্টেমের সাথে সম্পর্কিত সেটিংস ধারণ করে, যেমন HDFS এবং YARN এর সাথে যোগাযোগের জন্য URL এবং হোস্টনেম। এই ফাইলটি Hadoop এর সব সেবার জন্য সাধারিত কনফিগারেশন সেটিংস সংরক্ষণ করে।

গুরুত্বপূর্ণ কনফিগারেশন:

  • fs.defaultFS
    এটি HDFS এর URI নির্ধারণ করে, যেখানে ডেটা সংরক্ষণ করা হয়। উদাহরণস্বরূপ, hdfs://namenode_host:8020

    উদাহরণ:

    <property>
      <name>fs.defaultFS</name>
      <value>hdfs://localhost:8020</value>
    </property>
    
  • hadoop.tmp.dir
    এটি Hadoop এর টেম্পোরারি ফাইল সংরক্ষণের জন্য ডিরেক্টরি নির্ধারণ করে। উদাহরণস্বরূপ, /tmp/hadoop

    উদাহরণ:

    <property>
      <name>hadoop.tmp.dir</name>
      <value>/tmp/hadoop</value>
    </property>
    

hdfs-site.xml

hdfs-site.xml ফাইলটি HDFS (Hadoop Distributed File System) এর কনফিগারেশন সেটিংস ধারণ করে। এই ফাইলের মাধ্যমে HDFS এর বিভিন্ন বৈশিষ্ট্য কনফিগার করা হয়, যেমন ব্লক সাইজ, রিপ্লিকেশন ফ্যাক্টর, এবং ডেটার সংরক্ষণ এবং ব্যবস্থাপনা।

গুরুত্বপূর্ণ কনফিগারেশন:

  • dfs.replication
    এটি HDFS ব্লকের রিপ্লিকেশন ফ্যাক্টর নির্ধারণ করে, অর্থাৎ একটি ব্লকের কতগুলি কপি HDFS এর বিভিন্ন নোডে সংরক্ষণ করা হবে। ডিফল্ট মান ৩।

    উদাহরণ:

    <property>
      <name>dfs.replication</name>
      <value>3</value>
    </property>
    
  • dfs.block.size
    এটি HDFS ব্লকের আকার নির্ধারণ করে। ডিফল্ট মান 128MB বা 256MB হতে পারে, তবে প্রয়োজন অনুসারে এটি পরিবর্তন করা যায়।

    উদাহরণ:

    <property>
      <name>dfs.block.size</name>
      <value>134217728</value>
    </property>
    
  • dfs.namenode.name.dir
    এটি Namenode এর মেটাডেটা সংরক্ষণের জন্য ডিরেক্টরি নির্ধারণ করে।

    উদাহরণ:

    <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/hadoop/hdfs/namenode</value>
    </property>
    

yarn-site.xml

yarn-site.xml ফাইলটি YARN (Yet Another Resource Negotiator) এর কনফিগারেশন সেটিংস ধারণ করে। YARN হলো Hadoop এর রিসোর্স ম্যানেজার, যা ক্লাস্টারের রিসোর্স শিডিউলিং এবং ম্যানেজমেন্টে ব্যবহৃত হয়। এই ফাইলের মাধ্যমে YARN এর মূল সিস্টেম এবং নোড ম্যানেজারের কনফিগারেশন নির্ধারণ করা হয়।

গুরুত্বপূর্ণ কনফিগারেশন:

  • yarn.resourcemanager.address
    এটি YARN এর Resource Manager এর হোস্ট এবং পোর্ট নির্ধারণ করে।

    উদাহরণ:

    <property>
      <name>yarn.resourcemanager.address</name>
      <value>localhost:8032</value>
    </property>
    
  • yarn.nodemanager.local-dirs
    এটি YARN Node Manager এর লোকাল ডিরেক্টরি নির্ধারণ করে, যেখানে এটি স্ন্যাপশট এবং লোগ ফাইল সংরক্ষণ করে।

    উদাহরণ:

    <property>
      <name>yarn.nodemanager.local-dirs</name>
      <value>/tmp/hadoop-yarn/local</value>
    </property>
    
  • yarn.nodemanager.log-dirs
    এটি YARN Node Manager এর লগ ডিরেক্টরি নির্ধারণ করে।

    উদাহরণ:

    <property>
      <name>yarn.nodemanager.log-dirs</name>
      <value>/tmp/hadoop-yarn/log</value>
    </property>
    

সারাংশ

Hadoop এর কনফিগারেশন ফাইলগুলো অত্যন্ত গুরুত্বপূর্ণ, কারণ এগুলির মাধ্যমে সিস্টেমের বিভিন্ন উপাদান এবং কাজের পরিবেশ নির্ধারণ করা হয়। core-site.xml ফাইলটি Hadoop এর মূল কনফিগারেশন সেটিংস ধারণ করে, hdfs-site.xml ফাইলটি HDFS এর কনফিগারেশন পরিচালনা করে, এবং yarn-site.xml ফাইলটি YARN এর কনফিগারেশন ব্যবস্থাপনা করে। এই ফাইলগুলো সঠিকভাবে কনফিগার করা হলে, Hadoop ক্লাস্টার আরও কার্যকরভাবে এবং দক্ষতার সাথে কাজ করতে পারে।

Content added By

Cluster Configuration এবং Management

449

Hadoop ক্লাস্টার কনফিগারেশন এবং ম্যানেজমেন্ট খুবই গুরুত্বপূর্ণ প্রক্রিয়া, কারণ সঠিক কনফিগারেশন এবং কার্যকরী ম্যানেজমেন্টের মাধ্যমে Hadoop ক্লাস্টারটি উচ্চ কার্যকারিতা, স্কেলেবিলিটি এবং স্থিতিশীলতা অর্জন করতে পারে। Hadoop ক্লাস্টার একটি বা একাধিক নোডে ভাগ করা হয়, যেখানে NameNode, DataNode, ResourceManager, NodeManager, এবং ApplicationMaster এর মতো গুরুত্বপূর্ণ উপাদানগুলি কাজ করে।


Hadoop ক্লাস্টার কনফিগারেশন

Hadoop ক্লাস্টারের কনফিগারেশন প্রক্রিয়া সঠিকভাবে নির্ধারণ করা অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি সিস্টেমের পারফরম্যান্স, স্কেলেবিলিটি এবং আউটপুট দক্ষতার ওপর সরাসরি প্রভাব ফেলে। Hadoop ক্লাস্টারের প্রধান কনফিগারেশন ফাইলগুলি হলো:

core-site.xml

এই ফাইলটি Hadoop এর ফাইল সিস্টেম এবং নেটওয়ার্ক কনফিগারেশন সম্পর্কিত তথ্য ধারণ করে। এখানে HDFS এর মূল URI (Uniform Resource Identifier) এবং ক্লাস্টারের অন্যান্য কনফিগারেশন সেটিংস থাকে। উদাহরণস্বরূপ:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode_host:9000</value>
    </property>
</configuration>

hdfs-site.xml

এই ফাইলটি HDFS এর কনফিগারেশন সম্পর্কিত। এটি NameNode এবং DataNode এর কাজ সম্পর্কিত নির্ধারণ করে, যেমন ডেটা ব্লক সাইজ, রিপ্লিকেশন ফ্যাক্টর ইত্যাদি। উদাহরণ:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>134217728</value>
    </property>
</configuration>

mapred-site.xml

এই ফাইলটি MapReduce সম্পর্কিত কনফিগারেশন ধারণ করে। এখানে MapReduce job এর জন্য বিভিন্ন সেটিংস নির্ধারণ করা হয়, যেমন JobTracker এর হোস্ট এবং পোর্ট।

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

YARN (Yet Another Resource Negotiator) সম্পর্কিত কনফিগারেশন এখানে করা হয়। YARN ResourceManager, NodeManager ইত্যাদি কনফিগারেশনগুলি এই ফাইলে নির্ধারণ করা হয়।

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resourcemanager_host</value>
    </property>
</configuration>

Hadoop ক্লাস্টার ম্যানেজমেন্ট

Hadoop ক্লাস্টার ম্যানেজমেন্টের জন্য বিভিন্ন টুল এবং পদ্ধতি ব্যবহৃত হয়, যার মাধ্যমে ক্লাস্টারের রিসোর্স ম্যানেজমেন্ট, টাস্ক শিডিউলিং, এবং ম্যানটেন্যান্স পরিচালনা করা হয়।

ক্লাস্টার মনিটরিং

ক্লাস্টারের পারফরম্যান্স এবং স্বাস্থ্যের উপর নজর রাখা অত্যন্ত গুরুত্বপূর্ণ। Hadoop এর জন্য বেশ কিছু মনিটরিং টুল রয়েছে, যেমন:

  • Ganglia: এটি Hadoop ক্লাস্টারের মেট্রিক্স মনিটর করার জন্য ব্যবহৃত হয়।
  • Nagios: এটি ক্লাস্টার এবং সিস্টেমের সুস্থতা এবং কর্মক্ষমতা ট্র্যাক করতে ব্যবহৃত একটি জনপ্রিয় টুল।
  • Ambari: এটি একটি গ্রাফিক্যাল ইউজার ইন্টারফেস (GUI) সরবরাহ করে এবং Hadoop ক্লাস্টারের ব্যবস্থাপনা এবং পর্যবেক্ষণ করার জন্য সহজ উপায় প্রদান করে।

ক্লাস্টার স্কেলিং

Hadoop ক্লাস্টারটি সহজেই স্কেল করা যায়। যখন ডেটার পরিমাণ বৃদ্ধি পায়, তখন নতুন নোড ক্লাস্টারে যুক্ত করা হয়। Hadoop এর ডিস্ট্রিবিউটেড আর্কিটেকচারের মাধ্যমে নোড যোগ করা হলে ক্লাস্টারের কর্মক্ষমতা বৃদ্ধি পায় এবং আরও বেশি ডেটা প্রসেস করা যায়।

ক্লাস্টার সিকিউরিটি

Hadoop ক্লাস্টারে সিকিউরিটি অত্যন্ত গুরুত্বপূর্ণ, বিশেষ করে যখন ক্লাস্টারে সংবেদনশীল ডেটা থাকে। Hadoop ক্লাস্টারের সিকিউরিটি কনফিগারেশন এর মধ্যে Kerberos authentication এবং Hadoop authorization ব্যবস্থাগুলি অন্তর্ভুক্ত থাকে।

ত্রুটি পুনরুদ্ধার (Fault Recovery)

ক্লাস্টার পরিচালনা করার সময় বিভিন্ন ত্রুটি হতে পারে। Hadoop ক্লাস্টারের ডিস্ট্রিবিউটেড ফাইল সিস্টেম এবং YARN এ built-in ফল্ট টলারেন্সের ব্যবস্থা থাকে, যা একটি নোডের ব্যর্থতার পর ডেটা বা কাজের পুনরুদ্ধার নিশ্চিত করে।


সারাংশ

Hadoop ক্লাস্টার কনফিগারেশন এবং ম্যানেজমেন্ট একটি দক্ষ Hadoop সিস্টেম পরিচালনার জন্য অপরিহার্য। সঠিক কনফিগারেশন ফাইল যেমন core-site.xml, hdfs-site.xml, mapred-site.xml, এবং yarn-site.xml এর মাধ্যমে ক্লাস্টারের কার্যকারিতা বৃদ্ধি করা হয়। ক্লাস্টারের পরিচালনা এবং রক্ষণাবেক্ষণের জন্য বিভিন্ন টুল যেমন Ganglia, Nagios, এবং Ambari ব্যবহৃত হয়, যা ক্লাস্টারের কর্মক্ষমতা এবং স্বাস্থ্যের উপর নজর রাখতে সহায়ক। Hadoop এর ডিস্ট্রিবিউটেড আর্কিটেকচার ক্লাস্টার স্কেলিং এবং ফল্ট টলারেন্সে সাহায্য করে, যা নিশ্চিত করে সিস্টেমের কার্যকারিতা ও স্থিতিশীলতা।

Content added By

Hadoop এর জন্য SSH এবং Java Configuration

340

Hadoop সেটআপ করার জন্য কিছু প্রাথমিক কনফিগারেশন করতে হয়, যার মধ্যে SSH (Secure Shell) এবং Java কনফিগারেশন গুরুত্বপূর্ণ ভূমিকা পালন করে। সঠিকভাবে SSH এবং Java কনফিগার করা ছাড়া Hadoop ক্লাস্টার পরিচালনা করা সম্ভব নয়।


SSH কনফিগারেশন

Hadoop ক্লাস্টারের মধ্যে একাধিক মেশিনে কাজ করার জন্য SSH কনফিগারেশন অত্যন্ত গুরুত্বপূর্ণ, কারণ Hadoop এর নোডগুলোকে একে অপরের সাথে যোগাযোগ করতে হবে। SSH এর মাধ্যমে নোডগুলোর মধ্যে নিরাপদ সংযোগ স্থাপন করা হয় এবং Hadoop কমান্ড চালানোর জন্য রিমোট মেশিনে লগইন করা হয়।

SSH কনফিগারেশনের জন্য ধাপসমূহ:

  1. SSH ইনস্টলেশন
    প্রথমে, সিস্টেমে SSH ক্লায়েন্ট ইনস্টল করতে হবে। Linux বা Ubuntu সিস্টেমে SSH ইনস্টল করতে টার্মিনালে নিচের কমান্ডটি ব্যবহার করুন:

    sudo apt-get install openssh-client
    
  2. SSH কনফিগারেশন ফাইল তৈরি
    হাদুপ ব্যবহারকারীর জন্য একটি SSH কী জেনারেট করতে হবে যাতে লগইন করতে পাসওয়ার্ডের প্রয়োজন না হয়:

    ssh-keygen -t rsa -P ""
    

    এরপর, .ssh/id_rsa.pub ফাইলের কনটেন্ট অন্য সিস্টেমে পেস্ট করতে হবে, যা authorized_keys ফাইলে যুক্ত হবে।

  3. Public Key Distribution
    ক্লাস্টারের প্রতিটি নোডে public key পেস্ট করতে হবে। একে অপরের মধ্যে SSH সংযোগের অনুমতি দেয়:

    ssh-copy-id user@<hostname>
    

    এই প্রক্রিয়াটি নিশ্চিত করবে যে, কোন পাসওয়ার্ড ছাড়াই এক নোড থেকে অন্য নোডে SSH এর মাধ্যমে সংযোগ স্থাপন করা যাবে।

  4. SSH সংযোগ পরীক্ষা
    সবকিছু সঠিকভাবে কনফিগার হওয়ার পর, আপনি ক্লাস্টারের অন্য নোডে SSH সংযোগ পরীক্ষার জন্য নিচের কমান্ডটি ব্যবহার করতে পারেন:

    ssh user@<hostname>
    

    যদি লগইন সফল হয়, তবে আপনি নিশ্চিত হতে পারবেন যে SSH কনফিগারেশন ঠিকঠাক হয়েছে।


Java কনফিগারেশন

Hadoop সম্পূর্ণরূপে Java-তে তৈরি, তাই Hadoop সঠিকভাবে কাজ করতে Java সেটআপের প্রয়োজন। Hadoop এর জন্য Java ভার্সন কনফিগারেশন গুরুত্বপূর্ণ, কারণ সঠিক Java ভার্সন ছাড়া Hadoop চলতে পারে না।

Java কনফিগারেশনের জন্য ধাপসমূহ:

  1. Java ইনস্টলেশন
    সিস্টেমে Java ইনস্টল না থাকলে, প্রথমে Java ইনস্টল করতে হবে। Ubuntu সিস্টেমে Java ইনস্টল করতে নিম্নলিখিত কমান্ড ব্যবহার করুন:

    sudo apt-get update
    sudo apt-get install openjdk-8-jdk
    
  2. JAVA_HOME পরিবেশ ভেরিয়েবল সেট করা
    Java ইনস্টল করার পরে, JAVA_HOME পরিবেশ ভেরিয়েবলটি সেট করা প্রয়োজন যাতে Hadoop সঠিকভাবে Java এর অবস্থান চিনতে পারে। .bashrc বা .profile ফাইলে নিম্নলিখিত লাইন যোগ করুন:

    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    export PATH=$JAVA_HOME/bin:$PATH
    

    এরপর, .bashrc ফাইলটি রিলোড করতে হবে:

    source ~/.bashrc
    
  3. Java কনফিগারেশন পরীক্ষা
    Java সঠিকভাবে ইনস্টল এবং কনফিগার হয়েছে কিনা তা পরীক্ষা করতে নিচের কমান্ডটি ব্যবহার করুন:

    java -version
    

    যদি সঠিক Java ভার্সন দেখায়, তবে আপনি নিশ্চিত হতে পারেন যে Java কনফিগারেশন সফল হয়েছে।

  4. Hadoop Configuration ফাইল এ Java সেটিংস
    Hadoop এর কনফিগারেশন ফাইলে Java এর অবস্থান নিশ্চিত করতে hadoop-env.sh ফাইলটি চেক করুন। এই ফাইলটি Hadoop এর ইনস্টলেশন ডিরেক্টরির মধ্যে থাকে ($HADOOP_HOME/etc/hadoop/hadoop-env.sh)।

    hadoop-env.sh ফাইলে Java এর পাথ সঠিকভাবে সেট করুন:

    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    

সারাংশ

Hadoop ক্লাস্টারের সঠিক কার্যক্ষমতার জন্য SSH এবং Java কনফিগারেশন অত্যন্ত গুরুত্বপূর্ণ। SSH ক্লাস্টারের নোডগুলির মধ্যে নিরাপদ এবং পাসওয়ার্ড ছাড়া যোগাযোগ নিশ্চিত করে, যা Hadoop এর ডিস্ট্রিবিউটেড প্রসেসিং সিস্টেমের জন্য অপরিহার্য। Java কনফিগারেশন Hadoop এর রানের জন্য অপরিহার্য, কারণ Hadoop Java ব্যবহার করে। যথাযথ কনফিগারেশন ছাড়া Hadoop সঠিকভাবে কাজ করবে না, তাই এই ধাপগুলো অনুসরণ করা গুরুত্বপূর্ণ।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...